Cohen’s D – T检验的效应量

By Ruben Geert van den Berg under T-Tests , Basics & Statistics A-Z

Cohen’s D 是两个均值之间的差异，以标准差为单位表示。

Cohen’s D - 公式 (Formulas)
Cohen’s D 和统计功效 (Power)
Cohen’s D 和点二列相关 (Point-Biserial Correlation)
Cohen’s D - 解释 (Interpretation)
SPSS 用户如何使用 Cohen’s D

为什么我们需要 Cohen’s D？

已婚和离异家庭的孩子完成了一些心理测试：焦虑、抑郁等。为了比较这两组孩子，他们的平均分数使用独立样本t检验进行了比较。结果如下所示。

一些基本的结论是：

所有均值差异都是负的。因此，第二组——来自离异家庭的孩子——在所有测试中的均值都较高。
除了焦虑测试外，所有差异都具有统计显著性。
均值差异的范围从 -1.3 分到 -9.3 分。

然而，我们真正想知道的是这些差异是小、中还是大的差异？这很难回答，原因有两个：

心理测试分数没有任何固定的测量单位（unit of measurement），如米、美元或秒。
统计显著性并不意味着实际显著性（反之亦然）。这是因为 p 值强烈依赖于样本大小（sample sizes）。

解决这两个问题的方法是使用标准差作为测量单位，就像我们计算 z 分数时一样。而以标准差表示的均值差异——Cohen’s D——是 t 检验的可解释的效应量（effect size）测量指标。

Cohen’s D - 公式 (Formulas)

Cohen’s D 的计算公式为：

\[D = \frac{M_1 - M_2}{S_p}\]

其中：

\(M_1\) 和 \(M_2\) 表示第 1 组和第 2 组的样本均值；
\(S_p\) 表示合并估计的总体标准差 (pooled estimated population standard deviation)。

但“合并估计的总体标准差”到底是什么？好吧，独立样本 t 检验假设我们比较的两组具有相同的总体标准差。我们通过“合并”我们的两个样本标准差来估计它：

\[S_p = \sqrt{\frac{(N_1 - 1) \cdot S_1^2 + (N_2 - 1) \cdot S_2^2}{N_1 + N_2 - 2}}\]

幸运的是，我们很少需要这个公式：SPSS、JASP 和 Excel 都可以轻松地为我们计算带有 Cohen’s D 的 t 检验。

JASP 中的 Cohen’s D

在 JASP 中运行完全相同的 t 检验并请求带有置信区间（confidence intervals）的“效应量”（effect size），会得到如下所示的输出。

请注意，Cohen’s D 的范围从 -0.43 到 -2.13。一些最小的指导原则是：

d = 0.20 表示小效应 (small effect)；
d = 0.50 表示中等效应 (medium effect)；
d = 0.80 表示大效应 (large effect)。

有了这些，我们可以大致认为：

焦虑（d = -0.43）和抑郁测试（d = -0.48）的效应是中等的；
强迫行为测试（d = -0.71）的效应是相当大的；
反社会行为测试（d = -2.13）的效应是绝对巨大的。

我们将在后面更详细地讨论 Cohen’s D 的解释。让我们首先看看 Cohen’s D 如何与统计功效和点二列相关（t 检验的另一种效应量测量指标）相关联。

Cohen’s D 和统计功效 (Power)

非常有趣的是，t 检验的统计功效（power）可以直接从 Cohen’s D 计算出来。这需要指定两个样本大小和 α，通常为 0.05。下图——使用 G*Power 创建——显示了统计功效如何随着总样本大小的增加而增加。它假设两个样本同样大。

如果我们以 α = 0.05 进行检验，并且我们想要统计功效 (1 - β) = 0.8，那么：

如果我们预期 d = 0.8（大效应），则使用 2 个 n = 26 的样本（总 N = 52）；
如果我们预期 d = 0.5（中等效应），则使用 2 个 n = 64 的样本（总 N = 128）；
如果我们预期 d = 0.2（小效应），则使用 2 个 n = 394 的样本（总 N = 788）；

Cohen’s D 和重叠分布

独立样本 t 检验的假设是：

独立的观察结果；
正态性（normality）：结果变量必须在每个子总体中正态分布；
同质性（homogeneity）：两个子总体必须具有相等的总体标准差，因此也具有方差。

如果完全满足假设 2 和 3，那么 Cohen’s D 意味着频率分布的哪个百分比重叠。下面的例子显示了当 Cohen’s D = 0.8（大效应）时，一些男性总体如何与一些女性总体的约 69% 重叠。

当 Cohen’s D 减少时，重叠的百分比增加。在这种情况下，分布的中点彼此靠近。一些基本基准包含在我们将在一分钟内介绍的解释表中。

Cohen’s D 和点二列相关 (Point-Biserial Correlation)

独立样本 t 检验的另一种效应量测量指标是 \(R_{pb}\)，即点二列相关。这只是一个定量变量和一个二分变量之间的皮尔逊相关（Pearson correlation）。它可以从 Cohen’s D 计算得出：

\[R_{pb} = \frac{D}{\sqrt{D^2 + 4}}\]

对于我们的 3 个基准值：

Cohen’s d = 0.2 意味着 \(R_{pb}\) ± 0.100；
Cohen’s d = 0.5 意味着 \(R_{pb}\) ± 0.243；
Cohen’s d = 0.8 意味着 \(R_{pb}\) ± 0.371。

或者，使用 t 值及其自由度计算 \(R_{pb}\)：

\[R_{pb} = \sqrt{\frac{t^2}{t^2 + df}}\]

Cohen’s D - 解释 (Interpretation)

下表总结了我们在前几段中讨论的关于 Cohen’s D 的经验法则。

Cohen’s D	解释	Rpb	% 重叠	建议 N
d = 0.2	小效应	± 0.100	± 92%	788
d = 0.5	中等效应	± 0.243	± 80%	128
d = 0.8	大效应	± 0.371	± 69%	52

SPSS 用户如何使用 Cohen’s D

Cohen’s D 在 SPSS 27 及更高版本中可用。它可以从 A nalyze SPSS 菜单箭头 C ompare Means Independen t Samples T Test 获取，如下所示。

有关输出的更多详细信息，请参阅 SPSS 独立样本 T 检验。

如果您使用的是 SPSS 26 或更低版本，您可以使用 Cohens-d.xlsx。这个 Excel 表重新计算一个或多个 t 检验的所有输出，包括 Cohen’s D 及其置信区间：

两个样本大小，
两个样本均值，以及
两个样本标准差。

divorced.sav 中的示例数据及其生成的部分输出如下所示。

请注意，Excel 工具不需要原始数据：一些描述性统计数据（可能来自印刷的文章）就足够了。

如果 SPSS 命令至少包含 2 个变量，SPSS 用户可以轻松地从简单的 MEANS 命令创建所需的输入。一个例子是：

***Create table with N, mean and SD for test scores by divorced for copying
into Excel.
**
means anxi to anti by divorced
/cells count mean stddev.

将 SPSS 输出表复制粘贴为 Excel 会保留结果的（隐藏）小数位。这些可以在 Excel 中显示，并减少舍入误差。

最后的说明

我认为 Cohen’s D 很有用，但我仍然更喜欢 R 2，即自变量和因变量之间的平方（皮尔逊）相关。请注意，这对于二分变量完全有效，并且也作为虚拟变量回归（dummy variable regression）的基础。

我更喜欢 R 2 的原因是它与其他效应量测量指标一致：独立样本 t 检验是 ANOVA 的一个特例。如果我们运行作为 ANOVA 的 t 检验，η 2（eta squared）= R 2，或者自变量解释的方差比例。这就提出了一个问题：如果我们比较 2 个而不是 3 个以上的子总体，为什么我们应该使用不同的效应量测量指标？我认为我们不应该。

这种推理也反对报告 t 检验的单尾显著性：如果我们运行作为 ANOVA 的 t 检验，p 值始终是相应 t 检验的双尾显著性。因此，为什么您应该报告不同的测量指标来比较 2 个而不是 3 个以上的均值？